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问题 解决 任务 中 行动 序列 的 二 分 类 建 模 : 
单 /两 参数 行动 序列 模型 
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摘 要 行动 序列 作为 一 种 典型 的 过 程 数据 , 可 反映 被 试 解决 问题 的 详细 步骤 。 鉴于 行动 序列 可 区 分 
误 ， 本 文 基于 二 分 类 Logistic 建 模 提出 两 个 复杂 度 相 对 较 低 的 行动 序列 模型 一 一 单 /两 参数 行动 序列 
型 (1P-/2P-ASM); 两 者 差异 在 于 是 和 否 允 许 自由 估计 问题 状态 的 区 分 度 。 通 过 实证 研究 和 模拟 研究 对 比 探 
究 两 个 新 模型 与 基于 多 分 类 Logistic 建 模 的 序列 作答 模型 (SRM) 的 表现 ,研究 结果 主要 发 现 (1) 两 个 ASM 
能 够 获得 与 SRM 几乎 一 致 的 问题 解决 能 力 估计 值 ，(2) 两 个 ASM 的 计算 耗 时 明显 低 于 SRM 的 ; (3) 2P- 
ASM 比 1P-ASM 的 综合 表现 更 优 。 总 之 ， 两 个 模型 复杂 度 相对 低 的 ASM 均 能 够 实现 对 行动 序列 的 有 
效 分 析 ， 有 益 于 行动 序列 数据 分 析 的 落地 。 

关键 词 ”过 程 数据 ， 行 动 序列 ， 问 题 状态 转移 ， 行 动 序列 模型 ， 项 目 反应 理论 
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1 引言 


问题 解决 是 指 在 


没有 清晰 解决 方案 的 人 


认 知 活动 , 在 问题 空 | 


Es 


att 


Rëm, 个 体 通 过 一 系列 认 知 加 工 过 程 , 应 用 认 知 技能 和 


司 中 进行 探索 , 将 问题 从 初始 状态 转变 为 问题 解决 目标 状态 的 过 程 (Newell & Simon, 


1972)。 问 题解 决 过 程 中 ， 被 试 需要 根据 问题 解决 的 目标 构建 计划 ， 选 择 策略 并 预 估 该 计划 的 执行 能 否 


达到 期 望 的 状态 ; 同 


时 ， 被 试 还 需要 根据 问题 目 


时 调整 先前 的 行动 策略 。 因 此 ， 对 问题 解决 能 力 的 测量 ， 不 仅 要 关注 问题 解决 的 最 终结 果 ， 还 需要 关注 


标 对 行动 结果 进行 检查 ， 发 现 问题 并 采取 补救 措施 ， 及 


问题 解决 过 程 中 系列 行为 ( 刘 耀 辉 等 , 2022)。 近 年 来 ， 国 际 学 生 测 评 项 目 (Programme for International 


Student Assessment, PISA) (OECD,2013) 推 出 了 模拟 生活 情境 的 问题 解决 测验 ， 通 过 真实 且 具 有 互动 性 的 


任务 , 记录 学 生 在 整个 问题 解决 过 程 中 行为 的 动态 变化 过 程 , 这 为 问题 解决 能 力 的 测量 提供 了 一 种 全 新 
际 成 人 能 力 评估 项 目 (PIAAC) 通 过 计算 机 测量 了 成 人 在 富 技 术 环 境 下 的 问题 解决 能 
仅 记 录 了 学 生 问题 解决 的 结果 ,还 可 以 将 学 生 在 问题 解决 过 程 中 的 操作 步骤 实时 记录 在 
传统 的 结果 数据 ， 基 于 过 程 数据 的 挖掘 分 析 ， 可 以 为 推 


的 方式 。 类 似 的 ， 国 


力 。 这些 测 验 不 


=> 


HEXER, MAES 


断 学生 的 潜在 问题 解 
目前 对 于 过 程 数 


动 和 数据 驱动 两 种 方法 ， 理 论 驱 动 的 特 生 


(process data)。 相 较 卫 


j 


决 能 力 提供 更 为 丰富 的 信息 。 


据 的 研究 ， 主要 可 以 分 为 特征 提取 与 统计 建 模 两 类 。 其 中 ,特征 提取 可 分 为 理论 驱 


E 提 取 方 法 一 般 采 用 专家 定义 的 行为 指标 来 对 学 生 的 问题 解 1 


决 


oy 


过 程 进行 评分 (Harding et al., 2017; Rosen, 2017; Yuan et al., 2019), 这 种 方法 依赖 于 专家 的 知识 经 验 ， 属 


于 自 上 而 下 的 特征 提 


于 一 定 的 测量 模型 进一步 建 模 分 析 (Liu et al., 2018; Zhan & Qiao, 2022; Zhang et al., 2022)， 但 该 方法 往往 


要 针对 不 同 的 任务 情 


取 方 法 。 理论 驱动 方法 标定 的 行为 指标 不 仅 能 够 用 作对 学 生 的 评分 依据 , 还 可 以 基 


境 设 定 不 同 的 特征 提取 规则 , 使 得 应 用 成 本 较 高 。 数据 驱动 的 方法 指 的 是 应 用 数据 
冬 据 、 机 器 学 习 等 算法 从 过 程 数据 中 提取 信息 ， 常 使 用 的 方法 包括 自然 语言 处 理 (He & Von Davier, 2016; 


Zhan et al., 2015; He et al., 2021)、 降 维 算 


析 方 法 (Zhu et al., 2016) 等 。 


另外 , 统计 建 模 大 体 可 分 为 传统 测量 模型 的 迁移 应 用 和 随机 过 程 建 模 两 类 。 传统 测量 模型 的 迁移 应 
H 


用 主要 是 先 利 用 特征 提取 方法 提取 完成 人 


E 


! “行动 序列 ”是 指 相 邻 两 个 问题 状态 (problem state) [RI 


E 务 的 关键 指标 ， 然 后 参照 这 些 关 键 指标 对 被 试 呈现 的 具体 操 
芷 或 行动 序列 (action sequence) 进行 编码 (如 ， 若 具体 操作 中 包含 关键 指标 则 被 编码 为 1， 否则 为 0)， 最 


的 状态 转移 (state transition); 如 A 一 B sk AB 表示 


法 (Tang et al., 2016; Tang et al., 2020, Tang et al., 2021) 和 网 络 分 


3 


4 前 阶段 中 的 问题 状态 A 到 


下 一 阶段 中 间 题 状态 B 的 状态 转移 ， 注 意 ， 在 实践 应 


可 能 ， 本 文中 ， 我 们 根据 语言 场景 需求 交替 使 


着 对 问题 状态 的 界定 不 同 ， 存 在 一 个 状态 转移 包含 不 止 一 个 行动 序列 的 


g 


H, BE 


"fra 


列 " 和 “状态 转移 "两 个 含义 相同 的 名 词 。 
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后 基于 题目 作答 理论 (item response theory, IRT) 模 型 或 认 知 诊断 模型 对 编码 数据 进行 分 析 , 并 估计 被 试 的 
问题 解决 能 力 (Liu et al., 2018; Wilson et al., 2017; Zhan & Qiao, 2022; Zhang et al., 2022; Zhu et al., 2016). 
然而 ， 这 种 方法 会 部 分 或 完全 忽视 具体 操作 中 的 顺序 信息 。 与 之 相对 ， 已 有 研究 直接 对 行动 序列 进行 随 
机 过 程 建 模 ， 如 动态 贝 叶 斯 网 络 (Levy, 2019) 和 隐 马 尔 可 夫 模 型 (Arieli-Attali et al., 2019; Bergner et al., 
2017)。 这 种 方法 虽然 考虑 到 了 行动 序列 中 的 顺序 信息 ， 但 估计 得 到 的 潜 变 量 通常 是 是 离散 的 属性 或 知 
识 掌握 状态 ， 无 法 了 解 被 试 稳定 且 连 续 的 问题 解决 能 


针对 已 有 方法 的 局 限 性 , Han 等 人 (2021) 将 动态 贝 叶 斯 网 络 与 称 名 作答 模型 mominal response model, 


> 


NRM) (Bock, 1972) 相 结合 ， 提 出 了 序列 作答 模型 (sequential response model, SRM). SRM 假设 被 试 的 问 
题解 决 能 力 和 某 行动 序列 的 特征 共同 决定 了 被 试 呈 现 该 行动 序列 的 概率 。 相 比 于 已 有 方法 ，SRM 不 仅 
考虑 了 行动 序列 的 顺序 信息 , 还 可 以 提供 问题 解决 能 力 的 连续 估计 值 , 可 用 于 精细 化 了 解 不 同 被 试问 题 
解决 能 力 之 间 的 个 体 差异 。 与 NRM 类 似 ，SRM 假设 被 试 在 每 个 问题 状态 下 的 所 有 转移 可 选项 (即行 动 
可 选项 ) 都 会 提供 测量 信息 ， 进 而 为 任务 中 每 一 个 可 能 存在 的 行动 序列 都 赋予 不 同 的 参数 (如 ， 转 移 倾向 
性 参数 和 转移 区 分 度 参数 )。 本 质 上 讲 ，SRM 是 对 行动 序列 的 多 分 类 (或 多 元 无 序 ) 建 模 ， 即 假设 下 一 个 
阶段 中 的 所 有 转移 可 选项 之 间 是 没有 数量 顺序 。 然 而 ,在 实际 问题 解决 任务 中 ， 行 动 序列 是 有 正 误 之 分 
的 : 可 将 有 助 于 成 功 解决 任务 的 行动 序列 界定 为 正确 行动 序列 , 而 将 最 终 可 能 会 导致 任务 失败 的 行动 序 
列 界定 为 错误 行动 序列 。 因此 ,被 试 在 每 个 问题 状态 下 的 所 有 转移 可 选项 是 有 正 误 之 分 的 ， 并非 完 全 是 
没有 数量 顺序 的 等 价 关 系 。 

理论 上 ， 对 于 有 正 误 之 分 的 数据 ， 二 分 类 建 模 更 为 适宜 。 与 二 分 类 建 模 相 比 ， 多 分 类 建 模 的 相对 优 
势 是 可 以 将 更 丰富 的 测量 信息 纳入 到 数据 分 析 中 , 但 这 势必 导致 模型 的 复杂 性 相对 更 高 ; 更 高 的 模型 复 
杂 性 通常 意味 着 更 多 的 待 估计 参数 种 类 和 数量 , 更 高 的 参数 估计 计算 负担 , 更 低 的 参数 估计 结果 可 解释 
性 , 更 低 的 实践 易 用 性 。 基于 模型 比较 与 选择 的 简约 原则 (Beck, 1943), 本 研究 拟 对 包含 正 误 信 息 的 行动 
序列 进行 二 分 类 建 模 ， 提 出 单 参数 和 两 参数 行动 序列 模型 (one- and two-parameter action sequence model, 
1P-/2P-ASM)， 以 期 降低 行动 序列 分 析 模 型 的 复杂 性 并 增加 计算 效率 ; 同时 ， 相 对 简约 的 模型 也 有 助 于 
增加 模型 参数 估计 结果 的 可 解释 性 ， 进 而 增加 行动 序列 模型 的 实践 易 用 性 。 

首先 ， 阐 述 行动 序列 建 模 基 础 并 回顾 SRM: 其 次 ， 介 绍 本 文 两 个 新 模型 : 1P-ASM 和 2P-ASM; 然 
后 ， 基 于 一 则 实证 研究 数据 对 比 两 个 新 模型 和 SRM 的 参数 估计 结果 ， 以 展现 新 模型 的 实践 可 应 用 性 及 
其 与 SRM 的 参数 估计 结果 一 致 性 程度 ， 再 然后 ， 通 过 模拟 研究 探究 两 个 新 模型 在 不 同 模拟 测验 条 件 的 
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心理 计量 学 性 能 ， 最 后 ， 对 研究 结果 进行 总 结 并 探讨 研究 局 限 及 未 来 研究 方向 。 


2 背景 知识 


2.1 行动 序列 建 模 基 础 


状态 。 其 中 S 为 问题 解决 初始 状态 ,EE 为 问题 解决 的 目标 状态 ， 其 余 均 为 问题 解决 的 ! 


图 1(9) 呈 现 了 一 个 问题 解决 任务 的 例子 ， 该 问题 解决 过 程 包含 S. A. B. C. D 和 EE 共 六 种 问题 


间 状 态 。 由 于 该 


题目 允许 被 试 在 任意 中 间 状 态 反 悔 回 到 初始 状态 ， 所 以 理论 上 会 出 现 多 种 问题 状态 转移 序列 (problem 


state transition sequence)， 比 如 ，S 一 A 一 C 一 E、S 一 B 一 S 一 A 一 C 一 E、S 一 B 一 D 一 E 等 。 在 众多 问题 状态 


转移 序列 中 ，S 一 A 一 C 一 E 为 最 优 问题 状态 转移 序列 ， 其 中 包含 SoA, AC 和 CoE 三 个 状态 转移 或 
行动 序列 。 图 中 ,红色 实 线 箭头 表示 正确 行动 序列 ， 即 有 助 于 正确 解决 问题 的 行动 序列 ; 而 黑色 虚线 入 


头 为 错误 行动 序列 ， 即 最 终 可 能 导致 错误 作答 结果 的 行动 序列 。 


实际 上 , 我 们 可 以 将 被 试 在 每 个 问题 状态 下 的 行动 转移 视 为 被 试 在 作答 一 道 “ 选 择 题 "。 图 1(b) 是 与 


图 1(a) 相 对 应 的 问题 解决 流程 图 。 当 被 试 处 于 阶段 1 中 问题 状态 S 时 ， 他 /她 需要 在 阶段 2 中 的 两 个 问 


MUKA A AB 之 间 做 出 选择 ， 同 理 ， 当 被 试 处 于 阶段 2 中 问题 状态 A 时 ， 他 /她 需要 在 阶段 3 中 三 个 问 
题 状 态 C、D 和 S 之 间 做 出 选择 (S 表示 返回 到 初始 状态 )。 此 时 ， 我 们 就 可 将 适用 于 题目 层面 作答 精度 
数据 分 析 的 传统 IRT 模型 迁移 应 用 于 此 。 比 如 ，Han 等 人 (2021) 就 将 NRM 迁移 应 用 于 此 ， 进 而 基于 多 


分 类 建 模 提 出 了 SRM. 


阶段 1 一 阶段 2 一 阶段 3 一 阶段 4 … 
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(a) 各 问题 状态 转移 关系 图 (b) 问题 解决 流程 图 


图 1 问题 解决 任务 示意 图 


TE: 红色 实 线 箭头 表示 正确 行动 序列 ， 黑 色 虚 线 箭头 表示 错误 行动 序列 ，S 一 A 一 C 一 E 为 最 优 问题 状态 
转移 序列 ， 其 中 包含 S 一 A、A 一 C 和 COE 三 个 行动 序列 。 省 略 号 表示 问题 解决 流程 的 重复 出 现 。 
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2.2 SRM 简介 

假设 一 个 问题 解决 任务 包含 了 RR 种 离散 的 问题 状态 , 问题 状态 的 集合 为 x = Lee, XR] Snp € 
x 表示 学 生 n 在 阶段 p (p = 1.…, 肪 ) 上 所 处 的 问题 状态 , 其 中 玉 为 学 生 ? 最 终 呈 现 问题 状态 转移 序列 的 长 
E, 不 同学 生 的 问题 状态 转移 序列 的 长 度 不 尽 相 同 。 图 2(a) 旦 现 了 SRM 的 逻辑 示意 图 ， DU SRM 假设 被 
试 的 问题 解决 能 力 影响 其 在 相 邻 两 阶段 之 间 的 状态 转移 ; 图 2(b) 呈 现 了 SRM 的 建 模 示意 图 , DI SRM 实 
际 上 是 对 状态 转移 或 行动 序列 进行 建 模 ， 假 设 被 试 的 问题 解决 能 力 影响 被 试 呈现 特定 行动 序列 的 概率 。 
SRM 可 表示 为 : 


(1) 


RP, Yas vs， 为 观察 变量 ， 即 被 试 n 在 相 邻 阶段 间 呈 现 的 行动 序列 j oy: e My 和 xy € 


M141 分别 表示 当前 阶段 所 处 的 问题 状态 和 下 一 阶段 可 以 选择 的 问题 状态 ，M, € x = Ire nl X 
示 在 阶段 p 所 有 可 能 出 现状 态 集合 。0, 为 被 试 n 的 问题 解决 能 力 ; Xx 为 状态 转移 倾向 参数 , 表示 从 状 
态 xj 向 状态 x 转移 的 倾向 性 , 该 参数 值 越 大 表明 行动 序列 xj — x 越 易 于 被 呈现 ; Lx 为 状态 转移 区 分 度 
参数 ， 该 参数 值 越 大 表明 行动 序列 x — xk 对 问题 解决 能 力 的 区 分 度 越 高 。SRM 假设 给 定 被 试 潜在 能 
后 各 相 邻 阶段 呈现 的 行动 序列 之 间 满 足 条 件 独立 ， 进 而 ， 被 试 最 终 呈 现 的 行动 序列 向 量 Y, = (S, 
Su o Snp 了 Snp+1) 的 联合 概率 为 : 


PES Dai ugs 03) Q) 


作为 一 种 多 分 类 模型 , SRM 中 的 每 一 个 行动 序列 都 包含 2 个 参数 , hz xz 和 zx。 仍 以 图 1(b) 为 例 ， 
SRM 将 每 一 阶段 的 “选择 题 * 视 为 “ 称 名 作答 题 "， 认 为 每 一 个 选项 都 会 提供 测量 信息 ， 进 而 包含 了 22 个 
BB, HWA 11 个 转移 倾向 性 参数 (如 ，Asa、hAsg、AU4s、A4c、hApp 和 Apg) 和 与 之 对 应 的 11 个 转移 区 分 
度 参数 。 为 了 使 模型 可 识别 并 降低 待 估计 参数 数量 ，Han 等 (2021) 对 SRM 进行 了 一 定 约束 : (1) 约束 当 
前 问题 状态 xj 与 下 一 阶段 中 所 有 可 选 的 问题 状态 的 之 间 的 转移 倾向 参数 合 为 0， 即 xem,,, dan = 0; 


(2) 预 先 固定 转移 区 分 度 参 数 : Bix, > xk 为 正确 行动 序列 ， 则 Ix, = 1; dex; 一 Xk 为 错误 行动 序列 ， 则 
J j*k J 


ee 
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S os S, Sd Sa >S, SS Sa 
(a) 逻辑 示意 图 (b) 建 模 示意 图 


图 2 序列 作答 模型 示意 图 
TE: On 为 被 试 n 的 问题 解决 能 力 ，Sn1 为 学 生 n 在 阶段 1 所 处 的 问题 状态 ， 依 此 类 推 ，Sna 一 Sno WHEN 
从 阶段 1 向 阶段 2 转移 的 行动 序列 ， 依 此 类 推 


3 两 个 约束 模型 ，1P-ASM 和 2P-ASM 
3.1 模型 构建 

尽管 SRM 采用 多 分 类 建 模 将 所 有 行动 序列 所 提供 的 测量 信息 均 纳 入 到 模型 之 中 ， 但 它 仍然 通过 一 
个 预先 设 定 的 状态 转移 区 分 度 参数 区 别 对 待 了 行动 序列 的 正确 与 否 。 针对 具有 正 误 之 分 的 行动 序列 , 本 
研究 采用 二 分 类 建 模 思 路 ， 使 用 针对 二 级 评分 数据 的 IRT 模型 对 行动 序列 进行 建 模 ， 如 单 参数 IRT 模 
型 /罗氏 模型 (Rasch, 1960) 和 两 参数 IRT 模型 (Birnbaum, 1968)。 对 此 ， 图 3 呈现 了 与 图 1 对 应 的 问题 解 
决 任务 的 二 分 编码 示意 图 ， 该 图 中 我 们 将 正确 行动 序列 编码 为 1， 错 误 行动 序列 编码 为 0。 图 3(b) 中 ， 
我 们 可 以 将 每 一 阶段 中 的 “选择 题 ” 视 为 "具有 正确 答案 的 多 项 选择 题 ”; 此 时 ， 就 可 以 借鉴 针 传统 二 级 评 
分 IRT 模型 来 构建 行动 序列 模型 。 
图 4 呈现 了 两 个 ASM 的 建 模 示意 图 。 首 先 ， 将 任务 中 所 有 的 行动 序列 进行 二 分 编码 : 将 正确 行动 
序列 编码 为 1， 将 错误 行动 序列 编码 为 0。 此 时 ， 被 试 解决 问题 所 呈现 的 行动 序列 向 量 就 被 编码 为 仪 包 
含 0 或 1 元 素 的 二 元 向 量 ; 比如 图 1 中 最 优 问题 状态 转移 序列 SS ACE 所 对 应 的 行动 序列 向 量 (SA， 
AC, CE)" 可 被 转换 为 (1,1,1)”。 然 后 ， 基 于 二 级 评分 IRT 模型 ， 假 设 被 试 的 问题 解决 能 力 影响 被 试 呈现 正 
确 行动 序列 的 概率 。 


借鉴 单 参数 IRT 模型 ，1P-ASM 可 被 表示 为 : 


X 


Hrs le (nay = lea) rg ， 


(3) 


式 中 ， Yn(s, sn) = 1 表示 被 试 n 在 相 邻 阶段 间 呈 现 了 正确 行动 序列 ， By, NAT NA PE (action 


casiness) 参 数 ， 表 示 状 态 xj 下 呈现 正确 行动 序列 的 容易 度 ; 其 他 参数 售 义 同上 。 
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借鉴 两 参数 IRT 模型 ，2P-ASM 可 被 表示 为 : 
_ _ exp(Bx;++7x;+9n) 
P Ca eee = EN =P KE x EM 1+exp(Bo Sien Del ` Ed 


AF, re 为 行动 区 分 度 (action discriminatiom) 参 数 ， 表 示 状 态 x; 下 呈现 正确 行动 序列 对 问题 解决 


能 力 的 区 分 程度 ， 其 他 参数 含义 同上 。 
与 SRM 类 似 ， 两 个 ASM 也 假设 给 定 被 试 潜在 能 力 后 各 相 邻 阶段 呈现 的 行动 序列 之 间 满 足 条 


件 独立 ， 进 而 ， 被 试 最 终 呈 现 的 行动 序列 二 元 向 量 Y 的 联合 概率 为 : 


Ag G) 


A E, 


Se A S 阶段 1 一 阶段 2 一 阶段 3 一 阶段 4 … 
1 
o tc 1 PË 
y * c Dé s 
A B 0 
0 A ses 
! 1[ ~ 10 vi P 
! Y “~~ 1 "n 0 m : 
1 0 1 Ee | 
[es C D A | 1 S 
r ] 0 
| ci B H> D E 
; K , 
— E p IL| s] s 
(a) 各 问题 状态 转移 关系 图 (b) 问题 解决 流程 图 


图 3 问题 解决 任务 二 分 编码 示意 图 
TE: 红色 实 线 箭头 表示 正确 行动 序列 ， 编 码 为 1， 黑色 虚线 箭头 表示 错误 行动 序列 ， 编 码 为 0; 省 略 号 
表示 问题 解决 流程 的 重复 出 现 。 


图 4 二 分 类 行动 序列 模型 建 模 示意 图 
TE: 0; 为 被 试 n 的 问题 解决 能 力 ，5n1 为 学 生 n 在 阶段 1 所 处 的 问题 状态 ， 依 此 类 推 ，5%1 > Sn NEN 
从 阶段 1 向 阶段 2 转移 的 行动 序列 ， 依 此 类 推 ， 包 sis2 为 二 分 编码 后 的 行动 序列 ， 久 sis2 = 1 表示 被 
Wn 呈现 了 正确 行动 序列 ，Ys1_ys2= 0 表示 被 试 n 呈现 了 错误 行动 序列 。 
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3.2 ASM 和 SRM 的 对 比 


ASM 和 SRM 最 大 的 区 别 在 于 建 模 逻辑 不 同 ， 前 者 是 二 元 logistic 模型 ， 后 者 是 采用 除 总 模型 形式 
的 多 分 类 logistic 模型 。 建 模 逻 辑 上 的 差异 不 仅 会 导致 模型 复杂 性 的 差异 , 也 会 导致 参数 解释 上 的 差异 。 
比如 ， 如 果 将 SRM 中 的 转移 倾向 性 参数 视 为 “选项 ”层面 的 参数 ， 那 两 个 ASM 中 的 行动 容易 度 参数 就 


是 “题目 ”层面 的 参数 ， 前 者 刻画 选择 某 选 项 的 倾向 性 ( 即 ， 呈 现 某 行动 序列 的 倾向 性 )， 而 后 者 刻画 答对 
该 题目 的 容易 度 ( 即 ， 呈 现 正 确 行 动 序列 的 容易 度 )。 另 外 ， 为 了 减少 参数 佑 计数 量 ，SRM 中 的 状态 转移 
区 分 度 为 预先 固定 的 , 无 需 参 数 估计 ; 而 2P-ASM 中 的 行动 区 分 度 参 数 为 自由 估计 参数 ， 可 以 反映 不 同 
问题 状态 (或 “题目 ”) 对 被 试问 题解 决 能 力 的 区 分 程度 。 


值得 注意 的 是 , 由 于 SRM 中 的 参数 约束 , 其 待 估计 参数 的 数量 并 不 总 是 多 于 1P-ASM 和 2P-ASM。 
以 如 图 1(b) 中 阶段 3 的 问题 状态 C 为 例 ， 当 下 一 阶段 的 转移 可 选项 只 有 2 个 时 (E 和 S)， 由 于 SRM Si 
OK I Acer + Nes = 0. lcg = 1 和 1cs = 一 工 ， 所 以 SRM 中 也 仅 需 估计 1 个 转移 倾向 性 参数 。 此 时 ， 1P-ASM 


也 仅 需 估计 1 个 行动 容易 度 参 数 ， 而 2P-ASM 还 需要 额外 估计 1 个 行动 区 分 度 参 数 。 当 然 ，SRM 的 待 


3.3 贝 叶 斯 参数 估计 


估计 参数 数量 会 随 着 下 一 阶段 的 转移 可 选项 的 增加 而 增加 ， 而 ASM 则 不 会 。 


与 SRM 一 样 ， 两 个 ASM 也 可 使 用 全 贝 叶 斯 马尔 可 夫 链 蒙特 卡 洛 (MCMC) 算 法 进行 参数 估计 。 本 
研究 使 用 了 软件 中 的 Rstan 包 (Guo et al., 2018) 完 成 MCMC 参数 估计 ，Rstan 默认 使 用 No-U-Turn Sa 
mpler (NUTS) (Hoffman & Gelman，2014) 作 为 抽样 方法 。 网 络 版 附录 5 中 呈现 了 两 模型 参数 估计 对 无 
信息 先 验 分 布 和 有 信息 先 验 分 布 的 鲁 棒 性 分 析 结果 ， 结 果 表 明 无 论 先 验 分 布 包含 的 信息 量 如 何 ， 两 模 


型 的 参数 估计 结果 均 具 有 较 高 鲁 棒 性 。 结 合 己 有 研究 结果 (Han et al, 2021; Fu et al, 2022)， 正 文中 


所 有 参数 估计 均 采 用 有 信息 先 验 分 布 。 参 数 估 计 代 码 及 示例 数据 已 经 分 享 在 https:/osfio/3y2xr?view_o 


nly=7bc05393a51f472aa2462214ba588063 


4 实证 数据 分 析 


4.1 任务 描述 


与 Han 等 人 (2021) 研 究 保持 一 致 ， 本 下 


究 也 选用 PISA 2012 计算 机 化 问题 解决 “Tickets” 任 务 


(CP038Q02) 的 行动 序列 数据 进行 分 析 。 该 任务 要 求 被 试 操 作 一 台 虚 拟 售 票 机 ， 购 买 一 张 可 以 乘坐 2 次 
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的 全 价 郊区 火车 票 。 图 5 呈现 了 该 任务 的 初始 界面 ， 问 题解 决 过 程 中 各 阶段 的 截图 见 附 录 图 Al. Aug 
决 问题 ， 被 试 首先 需要 在 交通 方式 上 选择 “城市 地 铁 ” 或 “郊区 火车 ”。 其 次 ,根据 所 选 的 交通 方式 ， 被 试 
需要 在 “全 价 票 "和 "打折 票 " 之 间 做 选择 。 然 后 ， 根 据 所 选票 价 类 型 ， 再 选择 购买 " 包 日 票 ” 或 "次 票 ” 如 
果 选 择 “ 次 票 " 则 还 要 选择 购买 的 乘 车 次 数 (“] 次 ”~“5 次 ”)。 最 后 做 出 “购买 ”决定 即 可 完成 该 任务 。 被 试 
可 以 在 任意 操作 界面 通过 点 击 “ 取 消 ” 来 返回 到 任务 的 初始 界面 重新 进行 选择 。 为 了 解决 该 任务 , 不 同 被 
试 最 终 呈现 的 问题 状态 转移 序列 (或 与 其 对 应 的 行动 序列 向 量 ) 的 长 度 不 尽 相 同 。 


TICKETS 


A train station has an automated ticketing machine. 
You use the touch screen on the right to buy a 
ticket. You must make three choices. 


o Choose the train network you want (subway 
or country). 


» Choose the type of fare (full or concession). 


o Choose a daily ticket or a ticket for a 
specified number of trips. Daily tickets give 
you unlimited travel on the day of purchase. 
If you buy a ticket with a specified number 
of trips, you can use the trips on different 
days. 


The BUY button appears when you have made 
these three choices. There is a CANCEL button that 
can be used at any time BEFORE you press the 
BUY button. 


5 PISA2012 购 票 任务 初始 界面 


6 呈现 的 是 该 任务 拆 解 后 的 问题 结构 ， 共 包含 11 个 问题 状态 ， 即 x = {S,A, B,C, D, E, F,G, H, 1, J}; 
其 中 s 为 起 始 问题 状态 ，J 为 终止 问题 状态 ， 其 余 均 为 中 间 问 题 状态 。 在 两 个 相 邻 问题 状态 间 ， 实 线 表 
示 正 确 状 态 转移 (如 ，SA)， 虚 线 表 示 错 误 状 态 转移 (如 ，SF)。 该 任务 的 最 优 问题 状态 转移 序列 为 “开始 
(S) 一 正确 的 交通 类 型 (A) 一 正确 的 折扣 类 型 (B) 一 正确 的 车 票 类 型 (C) 一 正确 的 乘 车 次 数 (D) 一 购买 四)”， 
相应 的 点 击 操作 是 “乡村 火车 ”一 “全 价 票 ”一 “次 票 ”一 “2 次 ”一 “购买 ”。 

表 1 从 “选择 题 " 视 角 进 一 步 整理 了 图 6 中 的 操作 过 程 。 可 将 当前 阶段 所 处 的 问题 状态 视 为 一 道 被 试 
需要 作答 的 “选择 题 ”， 将 下 一 阶段 的 可 选 问题 状态 视 为 选项"。 比 如 , 在 初始 阶段 被 试 需要 在 “选择 题 *S 
的 两 个 “选项 *A 和 F 之 间 进 行 选择 ， 其 中 A 为 正确 “选项 *，F 为 错误 “选项 "。 针 对 这 些 “ 选 择 题 ”，SRM 
将 它们 视 为 称 名 作答 题 ，ASM 将 它们 视 为 二 级 评分 选择 题 。 比 如 ， 某 学 生 的 问题 状态 转移 序列 为 
SABCDEDJ， 则 SRM 分 析 的 行动 序列 向 量 为 (SA, AB, BC, CD, DE, ED, DJ)’, ifii ASM 分 析 的 行动 序列 


二 分 向 量 为 (1, 1, 1, 1, 0, 1, 1)'。 
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》eoooeoseeaesseeeeseseocesseseooeesceseesesese 


错误 的 乘 车 次 数 (E) 


图 6PISA 2012 购 票 任务 结构 图 


| 错误 的 车 票 类 型 (了 
: 1/2/3/4/5 次 


错误 的 乘 车 次 数 (D) 


表 1 PISA 2012 购 票 任务 所 类 比 的 “选择 题 ” 


LIK 
= 
S 
= 
9 


下 一 阶段 可 选 问题 状态 (转移 选项 ) 


A(1) 
B (1) 
C (1) 
D(1) 
JO 
D(1) 
S (1) 
S (1) 
S (1) 
S (1) 


vo DD Om pm Dom S o 


42 ”数据 整理 与 分 析 


原始 数据 来 源 于 PISA 官网 下 载 *。 在 进行 具体 的 数据 分 析 之 前 ， 先 根据 图 6 中 定义 的 任务 结构 对 原 
止 作答 的 行动 序列 ， 即 没有 点 


始 数据 进行 重新 编码 ， 并 对 数据 进行 清理 : (01) 删 去 提前 终 


F (0) 
G (0) 
H (0) 
E (0) 
E (0) 
J(0) 

G (0) 
H (0) 
I (0) 

J (0) 


S (0) 
S (0) 
S (0) 
S (0) 
S (0) 


J (0) 


注 : 括号 中 的 1 代表 正确 * 选 项"( 即 正确 状态 转移 )，0 代表 错误 “选项 "( 即 错误 状态 转移 )。 


J (0) 


D 


ise 


动 序列 ; (2) 删除 包含 了 不 可 能 的 状态 转移 的 行动 序列 (如 附录 表 AD)。 最 终 ， 从 记录 行动 的 日 志文 件 中 


? https:/www.oecd.org/pisa/pisaproducts/database-cbapisa2012.htm 
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提取 了 28851 名 被 试 的 问题 状态 转移 序列 (行动 序列 向 量 )， 其 中 问题 状态 转移 序列 的 最 短 长 度 为 5， 最 


长 长 度 为 110， 平 均 长 度 为 6.992。 原 始 数据 当中 包含 了 1395 种 问题 状态 转移 序列 ， 其 
E 务 目标 (涉及 15408 名 被 试 : 有 10610 名 被 试 按 照 最 优 问题 状态 转移 序列 完成 了 
E 确 解决 问题 过 程 中 有 错误 修正 过 程 )。 最 后 ， 限 于 算 力 


状态 转移 序列 完成 了 人 
任务 目标 ， 另 外 4798 名 学 生 在 了 


K, 我 们 从 28851 名 被 试 中 随机 选择 了 2000 名 学 生 的 问题 状态 转移 序列 月 


态 转移 序列 的 最 短 长 度 为 5S， 最 长 长 度 为 46，3 


日 于 本 看 


有 569 种 问题 


为 增加 研究 效 
究 的 实证 分 析 (问题 状 


均 长 度 为 7.03; 包含 了 1395 种 问题 状态 转移 序列 ， 其 


中 有 569 种 问题 状态 转移 序列 完成 任务 目标 [涉及 1068 名 学 生 , 有 737 人 按照 最 优 问 题 状 态 转 移 序 列 完 
成 了 任务 目标 )。 


分 别 使 用 1 P-ASM、2P-ASM 和 SRM 分 析 数 据 。 参 数 估 计时 , 选用 2 条 马尔 可 夫 链 , 每 条 链 长 5,000 


次 ， 预 热 (burn-in)3,000 次 。 使 用 PSRF ffi (PSRF; Gelman & Rubin, 1992) 


Zi Be m SUE; 当 PSRF<1.1 时 ,表明 参数 估计 收敛 。 此 外 ， 采 


来 确定 MCMC 算法 得 


到 的 参 


| Watanabe-Akaike 信息 准则 


(WAIC; Watanabe & Opper, 2010) 和 留 一 法 交叉 验证 (LOO, Gelfand et al., 1992) 两 个 完全 贝 叶 斯 的 相对 
拟 合 指标 来 衡量 模型 对 数据 的 拟 合 情况 ， 为 模型 选择 提供 证 据 两 个 指标 值 越 小 ， 表明 模型 对 数据 的 拟 
合 越 好 。 值 得 注意 的 是 ， 由 于 SRM 和 ASM 分 析 的 数据 并 不 相同 (前 者 分 析 的 是 每 位 学 生 的 行动 序列 向 
量 ， 后 者 分 析 的 是 每 位 学 生 的 行动 序列 向 量 的 二 分 化 向 量 )， 所 以 两 者 的 相对 拟 合 值 无 法 比较 。 因 此 ， 


我 们 仅 能 通过 相对 拟 合 指标 判断 两 个 ASM 之 间 的 相对 拟 合 优 劣 , 无 法 


于 判断 ASM 和 SRM 的 相对 拟 


合 优 劣 。 对 此 ， 本 研究 将 通过 计算 ASM 和 SRM 参数 估计 结果 的 一 致 性 来 体现 二 分 类 建 模具 有 与 多 分 


类 建 模 相 接近 的 表现 。 另外 , 使 用 后 验 预测 检验 (PPC; Gelman et al.,2014) jj 


FE 估 模型 对 数据 的 绝对 拟 合 ; 


如 果 模 型 拟 合 数据 ， 则 其 后 验 预 测 概率 (ppp) 接 近 0.5， 反 之 ,如果 模型 不 拟 合 数据 ， 则 其 ppp (ff. <0.025 
或 > 0.975。 本 文中 PPC 所 使 用 的 统计 量 见 附录 表 A2。 


4.3 结果 


所 有 模型 中 所 有 参数 的 PSRF 值 均 小 于 1.05, 表明 在 我 们 的 设 定 下 所 有 参数 估计 达到 收敛 标准 。 此 


外 ， 附 录 4 中 提供 了 模型 参数 的 抽样 轨迹 


图 。 表 2 呈现 了 三 个 模型 对 数据 的 拟 合 情 况 和 计算 耗 时 。 首 
c, 三 个 模型 的 ppp 值 均 接 近 0.5, 表明 三 个 模型 均 拟 合 该 数据 。 其 次 , 两 个 相对 拟 合 指 标 表 明 2P-ASM 


对 数据 的 拟 合 优 于 1P-ASM， 意 味 着 考虑 行动 序列 的 区 分 度 能 更 好 地 反映 该 数据 的 特征 ， 即 不 同行 动 序 


列 对 问题 解决 能 力 的 区 分 能 力 是 不 同 的 。 如 上 文 所 述 ， ASM 和 SRM 的 相对 拟 合 结果 不 具有 可 比 性 。 最 
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后 ， 参 数 估计 耗 时 可 以 综合 反映 模型 的 复杂 性 程度 ， 结 果 发 现 SRM 的 耗 时 最 长 ，2P-ASM 次 之 ，1P- 


ASM 的 耗 时 最 短 ; 这 


并 呈现 ASM 和 SRM 对 


明 二 分 类 模型 的 确 比 多 分 类 模型 简约 。 下 文 主要 下 


被 试问 题解 决 能 力 估计 的 一 致 性 。 


RER 


表 2 实证 研究 中 三 个 模型 对 数据 的 拟 合 情 况 和 计算 耗 时 


模型 
1P-ASM 
2P-ASM 

SRM 


YE: 1P-ASM = 单 参数 行动 序列 模型 ，2P-ASM= W 


LOO WAIC ppp 
11018.208 11007.133 0.511 
10363.785 10275.475 0.518 
16804.501 16803.925 0.498 


留 一 法 交叉 验证 ，WAIC = Watanabe-Akaike 信息 准则 ;ppp = 后 验 预 测 概率 。 


表 3 中 呈现 了 两 个 


围绕 两 个 ASM 阐述 ， 


计算 时 间 ( 秒 ) 
647.5 
958.5 
1958.6 


参数 行动 序列 模型 ，SRM = 序列 作答 模型 ; LOO = 


ASM 的 题目 参数 估计 结果 (后 验 均 值 、 后 验 标准 差 和 95% 最 高 概率 密度 [ 贝 叶 斯 


aR KEJ. FE, XI 


TUS(S. A. B. C 和 D) 的 容易 度 参数 的 后 验 均 值 均 大 于 0， 表 明 当 被 试 处 于 正确 
其 更 容易 继续 呈现 正确 行动 序列 ; 与 之 相对 ， 错 误 问 题解 决 路 径 ( 即 非 最 优 问题 状态 转移 序列 ) | 


状态 FE、G`、H 和 D 的 容易 度 参数 后 的 验 均 值 均 小 于 0, 表明 当 被 试 已 经 处 于 错误 路 径 上 的 问题 状态 时 ， 


行动 容易 度 参数 而 言 ， 正 确 问题 解决 路 径 ( 即 最 优 问题 状态 转移 序列 ) 上 的 问题 


路 径 上 的 问题 状态 时 ， 


上 的 问题 


其 更 难以 纠正 错误 转向 正确 的 问题 状态 ( 即 更 易于 继续 维持 在 错误 路 径 上 )。 值 得 注意 的 是 ， 问 题 状 态 卫 


和 I 是 错误 路 径 上 的 问题 状态 , 其 含义 均 为 “选择 错误 的 乘 车 次 数 ”; 相 


E 和 了 的 容易 度 估计 值 更 高 ,表明 当 被 试 处 于 这 两 个 错误 状态 时 ， 更 有 可 能 在 下 一 步 选 择 时 纠正 
错误 ( 即 选择 S 返回 初始 状态 重新 作答 )。 其 次 ， 对 于 行动 区 分 度 参 数 而 言 ， 不 同 问题 状态 的 行动 
有 一 定 差 异性 。 其 中 ， 问 题 状态 C 和 1 的 行动 区 分 度 后 验 均值 相对 较 高 ,表明 不 同 问 题解 决 能 力 的 学 4 


FT 


日 较 于 其 他 错误 路 径 上 的 问题 状态 ， 
自己 的 
区 分 度 


在 这 两 个 问题 状态 下 呈现 正确 行动 序列 的 概率 差异 相对 较 大 。 也 就 是 说 ， 


学 生 是 否 能 够 选择 正确 的 乘 车 次 数 , 以 及 已 经 处 于 错误 问题 解 六 
FE 自己 的 错误 , 这 两 个 操作 对 于 学 生 的 能 力 的 区 分 力 是 相对 最 强 的 .总 之 ,根据 行动 参数 估计 值 可 发 现 ， 


E 


当 被 试 已 经 处 于 正 


zu 


CUT IER 
路 径 上 的 学 生 


题解 决 路 径 ， 则 其 更 易于 继续 错 下 去 ， 直 到 末尾 选择 乘 车 次 数 界面 时 才 有 一 个 纠正 错误 的 关键 期 。 


1 


i BOUE Lf 
是 否 能 够 通过 “取消 "来 


"| 


角 问 题解 决 路 径 ， 则 其 更 易于 保持 在 正确 问题 解决 路 径 上 ; 而 当 被 试 已 经 处 于 错误 问 


2 
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表 3 实证 研究 中 行动 序列 模型 参数 估计 结果 . 


1P-ASM 2P-ASM 
当前 问题 状态 容易 度 容易 度 区 分 度 
后 验 均值 ”后 验 标准 差 95% HPD ”后 验 均值 ”后 验 标 准 差 ”95% HPD 后 验 均 值 ” 后 验 标准 差 95% HPD 
S 0.911 0.046 (0.822, 1.001) 0.969 0.057 (0.860, 1.084) 1.343 0.116 (1.111, 1.570) 
A 1.553 0.066 (1.425, 1.682) 1.547 0.077 (1.401, 1.701) 1.457 0.212 (1.043, 1.870) 
B 1.432 0.073 (1.290, 1.577) 1.354 0.082 (1.198, 1.521) 1.797 0.398 (0.958, 2.566) 
C 1.436 0.080 (1.279, 1.599) 1.207 0.148 (0.940, 1.526) 3.015 0.885 (1.104, 4.759) 
E 2.008 0.107 (1.801, 2.215) 1.734 0.159 (1.456, 2.099) 1.615 0.495 (0.463, 2.576) 
D 0.361 0.176 (0.015, 0.702) 0.472 0.283 (-0.031, 1.064) — 1.472 0.952 (0.225, 3.792) 
F -1.705 0.107 (-1.918,-1.492) -1.590 0.123 (-1.829,-1.348) 1.438 0.250 (0.982, 1.974) 
G -1.888 0.111 (-2.105, -1.677) -1.747 0.147 (-2.050, -1.480) 2.115 0.354 (1.495, 2.875) 
H -0.749 0.075 (-0.898, -0.599) -0.292 0.172 (-0.636, 0.037) 2.229 0.426 (1.400, 3.088) 
I -0.368 0.157 (-0.686, 0.062) 0.760 0.470 (-0.101, 1.753) 3.127 0.933 (1.525, 5.179) 
YE: 1P-ASM= 单 参数 行动 序列 模型 ， 2P-ASM = 两 参数 行动 序列 模型 ; SRM = 序列 作答 模型 ， 95% HPD = 95% 最 高 概率 密度 ( 贝 叶 斯 可 信 区 间 ). 
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1 r = 0.993 
0 
-] 


1P-ASM 2P-ASM ` Gem 
图 7 实证 数据 中 三 个 模型 的 问题 解决 能 力 参 数 后 验 均值 对 比 散 点 图 及 概率 密度 图 
ik: 1P-ASM= 单 参数 行动 序列 模型 ，2P-ASM= 两 参数 行动 序列 模型 ，SRM= 序 列 作答 模型 ;到 皮 尔 逊 积 
差 相关 。 


2P-ASM 


SRM 
| 

- 
e 
o 
Ke] 
N 

. 

1 
e 
Ka 
£ 


图 7 呈现 了 三 个 模型 的 问题 解决 能 力 估计 值 (后 验 均 值 ) 的 对 比 散 点 图 及 概率 密度 图 。 首 先 ， 散 点 图 
结果 呈现 出 三 个 模型 的 问题 解决 能 力 估计 值 具有 较 高 的 一 致 性 (三 者 之 间 的 相关 系数 均 在 0.99 以 上 ), 表 
明 它 们 测量 的 是 同一 潜在 特质 上 且 二 分 类 建 模 与 多 分 类 建 模 一 样 能 够 通过 分 析 行 动 序列 数据 测量 被 试 的 
问题 解决 能 力 并 反映 个 体 之 间 的 差异 性 。 其 次 ， 对 比 三 模型 的 概率 密度 图 ， 可 发 现 三 个 模型 在 高 能 力 区 
间 和 低能 力 区 间 的 概率 密度 分 布 基本 一 致 , 仅 在 中 能 力 区 间 的 分 布 略 有 差异 (主要 是 SRM) 一 个 可 能 的 
原因 是 SRM 更 充分 地 利用 了 不 同行 动 序列 所 提供 的 测量 信息 : 它 不 仅 利 用 了 正确 行动 序列 所 包含 的 测 
量 信息 ， 也 利用 了 不 同 错误 行动 序列 中 可 能 并 不 相同 的 测量 信息 。 比 如 ， 当 多 名 被 试 同 时 处 于 问题 状态 
A 时 , 相 比 于 选择 错误 “选项 ”G 的 被 试 而 言 , 选择 错误 “选项 ”S 的 被 试 的 问题 解决 能 力 似 乎 要 更 高 一 些 ; 
此 时 ，SRM 是 可 以 区 分 呈现 AG 的 被 试 和 呈现 AS 的 被 试 之 间 的 区 别 的， 而 ASM 则 将 他 们 均 视 为 同一 
类 做 出 错误 选择 的 人 。 

从 分 析 数 据 中 挑选 取出 现 频率 大 于 20 次 的 问题 状态 转移 序列 作为 典型 问题 状态 转移 序列 (涵盖 了 
80.1% 的 被 试 )。 表 4 呈现 了 典型 问题 状态 转移 序列 在 三 个 模型 中 的 问题 解决 能 力 估 计 值 的 描述 统计 ( 按 
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SRM 的 能 力 估计 均值 从 高 到 低 排 序 )。 首 先 ， 三 个 模型 对 呈现 各 典型 问题 状态 转移 序列 的 被 试 的 能 力 估 
计 的 描述 性 统计 具有 一 定 的 一 致 性 。 比 如 ， 呈 现 最 优 问题 状态 转移 序列 SABCDJ 的 被 试 的 能 力 估 计 均 
值 相对 最 高 , 而 呈现 最 差 问 题 状态 转移 序列 SEGHI 的 被 试 的 能 力 估计 均值 相对 最 低 。 其 次 , 整体 而 言 ， 


各 典型 问题 状态 转移 序列 中 ， 出 现 正确 问题 状态 的 数量 越 多 且 出 现 错误 问题 状态 的 数量 越 少 则 被 试 的 
能 力 估计 值 的 均值 就 越 高 ,有 反之, 被 试 的 能 力 估计 值 的 均值 就 越 低 。 然后 , 对比 ASM 和 SRM 的 结果 ， 


发 现 ASM 中 有 两 个 序列 下 的 被 试 的 能 力 估计 值 的 均值 排序 与 SRM 中 的 不 同 : SABCEDJ 对 应 的 能 力 估 
计 值 的 均值 略 低 于 SFGHSABCDJ 对 应 的 。 5530 SABCEDJ 的 被 试 尽 在 状态 C 上 的 选择 出 现 了 错误 转移 
(CE) 且 马上 进行 了 纠正 (ED)， 而 呈现 SFGHSABCDJ 的 被 试 在 初始 状态 就 出 现 了 错误 转移 ， 直 到 选择 购 
买 乘 车 次 数 时 才 返 回 初始 页 面 纠 正 自己 的 错误 。ASM 和 SRM 在 这 两 个 序列 上 的 排序 差异 可 以 从 不 同 


的 视角 解释 。 首 先 ， 从 出 现 错误 状态 的 次 数 或 问题 解决 效率 (序列 长 度 ) 看 ， 似 乎 呈现 SABCEDJ 的 被 试 


的 能 力 估 计 值 均值 应 该 高 于 呈现 SFGHSABCDJ 的 被 试 的 ; SRM 的 排序 结果 支持 该 视角 解释 。 其 次 , 结 


合 表 3 中 的 行动 容易 度 参数 可 发 现 ， 问 题 状态 C 的 容易 度 较 高 (难度 较 低 )， 而 问题 状态 F、G AH 的 容 


影响 或 人 惩罚 看 ， 在 状态 C 的 错误 选择 所 


易 度 较 低 ( 难 度 较 高 ); 因此 ， 从 错误 选择 对 能 力 估计 带 来 的 负 


低 于 呈现 SFGHSABCDI 的 被 试 的 ，ASM 的 排序 结果 支持 该 视角 解释 。 


最 后 ， 鉴 于 相对 拟 合 指标 无 法 对 比 ASM 和 SRM 对 数据 的 拟 合 优 务 ， 我 们 使 
决 能 力 估计 值 对 该 任务 的 作答 精度 数据 (根据 该 任务 的 评分 规则 ， 购 买 到 ] 


带 来 的 惩 避 高 于 在 状态 F、G 和 H 的 错误 选择 所 带 来 的 ， 进 而 导致 SABCEDJ 的 被 试 的 能 力 估计 值 均值 


三 个 模型 的 问题 解 


E 确 的 车 票 得 1 分 ， 否 则 得 0 


分 ) 做 logistic 回归 。 按 照 logistic 回归 的 要 求 ， 对 自 变 量 即 能 力 估 计 值 进行 了 标准 化 处 理 。 计 算得 到 的 


SRM、1P-ASM 和 2P-ASM 的 能 力 估 计 值 的 回归 系数 分 别 是 15.195、14.762 和 15.201 (回归 系数 均 显著 


p < 0.001)， 表 明 三 模型 的 能 力 估计 值 的 变化 可 以 显著 影响 该 人 


E 务 的 成 果 完成 与 否 


致 ， 其 中 2P-ASM 的 影响 相对 最 大 ，SRM 的 次 之 ，1P-ASM 的 相对 最 小 。 
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1 表 4 典型 问题 状态 转移 序列 对 应 的 问题 解决 能 力 估 计 值 的 描述 统计 . 
问题 状态 频数 SRM 1P-ASM 2P-ASM 
转移 序列 e 均值 中 位 数 标准 差 均值 中 位 数 Pas tte Fe 均值 中 位 数 标准 差 
SABCDJ 737 0.837 0.837 0.011 0.821 0.821 0.009 0.666 0.665 0.012 
SFSABCDJ 35 0.525 0.525 0.007 0.676 0.677 0.007 0.604 0.603 0.01 
SFGSABCDJ 22 0.345 0.347 0.007 0.598 0.598 0.005 0.488 0.487 0.009 
SABCEDJ 23 0.279 0.279 0.007 -0.017 -0.018 0.005 0.257 0.258 0.008 
SFGHSABCDJ 52 0.152 0.151 0.006 0.304 0.304 0.004 0.295 0.296 0.009 
SABCJ 47 0.023 0.025 0.007 -0.238 -0.237 0.006 -0.035 -0.035 0.011 
SABCEJ 27 -0.25 -0.25 0.005 -0.404 -0.404 0.005 -0.338 -0.338 0.012 
SABHJ 117 -0.364 -0.364 0.007 -0.506 -0.506 0.006 -0.359 -0.358 0.01 
SAGHJ 65 -0.662 -0.662 0.008 -0.741 -0.742 0.008 -0.594 -0.594 0.01 
SAGHIJ 45 -0.806 -0.806 0.008 -0.94 -0.939 0.007 -0.76 -0.76 0.01 
SFGHJ 337 -1.099 -1.099 0.011 -1.033 -1.033 0.008 -0.869 -0.869 0.011 
SFGHIJ 95 -1.228 -1.227 0.011 -1.201 -1.201 0.008 -1.02 -1.021 0.01 


2 ik: 1P-ASM 


参数 行动 序列 模型 ，2P-ASM = 两 参数 行动 序列 模型 ，SRM = 序列 作答 模型 。 
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5 模拟 研究 


51 研究 设计 、 数 据 生成 与 分 析 


本 身 并 无 法 生成 被 试 解 


通过 一 则 模拟 研究 进一步 探究 两 个 ASM 在 理想 测验 情境 下 的 心理 计 
任务 所 呈现 的 问题 状态 转移 序列 (只 能 生成 二 分 向 量 ); 
SRM 作为 行动 序列 数据 的 生成 模型 。 采 用 实证 研究 中 的 问题 解决 任务 结构 ( 


量 学 表现 。 需 要 强调 的 是 ASM 


办 此， 模拟 研究 1 


图 6) 来 生成 行动 序列 数据 。 


使 用 


模拟 研究 包含 两 个 操纵 变量 : 样本 量 ( 含 100、200 和 500 人 三 个 水 平 ) 和 问题 状态 转移 序列 长 度 ( 含 短 和 
长 两 个 水 平 ); 参照 Han 等 人 (2021) 和 Fu 等 人 (2022) 的 做 法 , 在 SRM 中 通过 调整 “取消 ”操作 (如 ,A 一 S) 
的 转移 倾向 参数 来 操作 问题 状态 转移 序列 的 长 度 : 参数 取 值 越 大 问题 状态 转移 序列 长 度 越 长 。 网 络 版 附 
生成 的 短 问 题 状态 转移 


AX 


能 力 参 数 重新 生成 ， 但 状态 转移 参数 固定 不 变 。 


针对 生成 的 数据 ， 使 


持 一 致 ， 同 样 使 


题解 决 能 力 参 数 含义 相同 且 可 比 ， 其 余 参 数 含义 不 同 且 无 法 比较 。 对 此 ,我们 针对 问题 解 妇 


结果 从 两 方面 来 总 


Pi: 


表 A3 呈现 了 短 序列 和 长 序列 中 所 有 状态 转移 倾向 参数 的 “ 真 值 "。 本 研究 
序列 和 长 问题 状态 转移 序列 的 平均 长 度 分 别 约 为 10.5 和 20.2。 被 试 的 问题 解决 能 力 参数 依 标 ; 
布 随机 生成 。 为 减少 随机 误差 影响 ， 每 种 模拟 条 件 下 重复 生成 50 H% 


Eo ^E 


| SRM. IP-ASM 和 2P-ASM 进行 参数 估计 ， 参 数 估 计 过 程 与 实 订 


模型 的 表现 。 首 先 ， 从 参数 估计 精度 方面 考虑 ， 使 


— 


EESSI 


数据 中 被 试 的 问题 解决 


FE 研究 中 保 
| PSRF 作为 参数 估计 收敛 指标 。 由 于 SRM 和 两 个 ASM 建 模 逻 辑 不 同 ， 它 们 除了 问 
能 力 的 估计 
| Bias 和 均 方 根 误差 (RMSE) 来 


探究 三 个 模型 中 间 题 解决 能 力 参数 的 估计 返 真性 :Bias(0) = FT, RMSE) = EC, A 
Fo, and F DARRE r 次 重复 中 的 能 力 参数 的 “ 真 值 "和 参数 估计 值 ， 此 外 ， 还 计算 了 “ 真 什 


计 值 之 间 的 相关 系数 Cor。 其 次 ， 从 参数 估计 一 致 性 方面 考虑 ， 使 有 


一 致 性 偏差 (CBias) 和 一 致 和 


"FU 


FE 误差 


(CRMSE) 来 探究 两 个 ASM 的 能 力 估计 值 和 数据 生成 模型 SRM 的 能 力 估计 值 之 间 的 一 致 性 : CBias(8) = 


50 gL— 8. A 
27=10sRM basm CRMSE(6) — 


50 


50: (M223 pm es ys d Lp 
ue uw, gut, GI gogo "次 重复 中 SRM 的 能 力 估计 值 ， 


lasu KIRI r RERE ASM 的 能 力 估计 值 ， 此外， 还 计算 了 两 类 模型 估计 值 之 间 的 相关 系数 CCor。 


另外 ， 计 算 了 各 个 条 件 下 50 次 参数 估计 平均 计生 


29 一 AAA ya 
反映 模型 的 复杂 性 ，4RT = ZT, stp, T, 表示 第 Ue 


E 复 中 的 参数 估计 计算 时 间 。 为 保证 计生 


时 间 (ART) 来 评估 不 同 的 模型 的 参数 估计 效率 以 


时 间 


结果 可 比 ， 三 模型 的 所 有 程序 均 在 相同 服务 器 上 运行 (配置 为 Intel(R) Xeon(R) Gold 6266C CPU @ 
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3.00GHz 和 64G 内 存 )。 


52 结果 


首先 ， 在 所 有 条 件 下 ， 三 模型 中 所 有 参数 的 PSRF 均 小 于 1.1， 表 示 所 有 模型 参数 估计 均 收 化 。 表 


5 呈现 了 不 同 模拟 条 件 下 三 个 模型 的 问题 解决 能 力 参 数 估计 的 返 真 性 和 计算 耗 时 。 首 先 ， 样 本 量 对 能 
参数 估计 的 返 真 性 的 影响 较 小 ， 序 列 平 均 长 度 越 长 ， 能 力 参数 估计 的 返 真 性 越 高 。 其 次 ，SRM 作为 数 


据 生 成 模型 ， 


返 真 性 理应 最 好 ，2P-ASM 次 之 ，1P-ASM RÆ, 但 三 者 间 整 体 差异 不 大 ( 绝 大 多 数 条 件 


下 1P-ASM 的 RMSE H SRM 的 高 不 到 0.05, Cor 低 不 到 0.02)。 最 后 ,在 所 有 条 件 下 1P-ASM 的 计算 耗 
时 最 短 ，2P-ASM 次 之 ，SRM 最 长 ; 该 结果 与 实证 研究 结果 吻合 ,表明 相 比 于 多 分 类 模型 ， 二 分 类 建 模 
在 保证 其 能 力 参 数 估计 精度 仅 有 微弱 下 降 的 同时 ， 可 大 幅 减 少 参 数 估 计 耗 时 。 

R 6 呈现 了 不 同 模 拟 条 件 下 两 个 ASM 与 SRM 的 问题 解决 能 力 参数 估计 的 一 致 性 。 整 体 看 ， 两 个 
ASM 与 SRM 的 一 致 性 均 较 高 ， 且 2P-ASM 与 SRM 的 一 致 性 高 于 1P-ASM 5 SRM 的 一 致 性 。 另 外 ， 


值得 注意 的 是 ， 当 序列 长 度 增 加 后 ，1P-ASM 与 SRM 的 一 致 性 略 有 下 降 ， 而 2P-ASM 5E SRM 的 一 致 性 


略 有 提升 。 
表 5 模拟 研究 中 三 个 模型 的 问题 解决 能 力 参 数 的 估计 返 真性 和 计算 耗 时 . 
样本 量 序列 长 度 模型 均 Bias 均 RMSE Cor ART( 秒 ) 
1P-ASM -0.002 0.534 0.854 18.117 
短 2P-ASM -0.002 0.534 0.852 30.274 
ee SRM 0.007 0.515 0.863 1029.189 
1P-ASM -0.011 0.441 0.910 24.393 
长 2P-ASM -0.011 0.408 0.917 37.100 
SRM -0.026 0.395 0.921 1321.361 
1P-ASM 0.007 0.523 0.855 41.923 
短 2P-ASM 0.007 0.518 0.858 66.395 
SRM 0.011 0.507 0.864 527.740 
200 1P-ASM 0.010 0.438 0.912 54.448 
长 2P-ASM 0.010 0.395 0.921 76.707 
SRM 0.002 0.386 0.924 691.308 
1P-ASM -0.004 0.516 0.856 119.439 
短 2P-ASM -0.004 0.504 0.863 198.838 
SRM -0.001 0.500 0.865 590.051 
1P-ASM 0.005 0.444 0.907 160.661 
长 2P-ASM 0.005 0.394 0.920 236.195 
SRM 0.002 0.391 0.921 801.767 
iE: IP-ASM= 单 参数 行动 序列 模型 ，2P-ASM — 两 参数 行动 序列 模型 ，SRM = 序列 作答 模型 ， 均 Bias 


= 所 有 被 试 的 估计 偏差 的 均值 ， 均 RMSE = 所 有 被 试 的 均 方 根 误差 的 均值 ，Cor = 真 值 与 估计 值 之 间 
的 相关 系数 ， ART = 平均 计算 时 间 。 当 样本 量 为 100 IN, SRM 模型 的 计算 耗 时 明显 多 于 其 他 较 高 样本 
量 条 件 下 的 计算 耗 时 ; 可 能 是 因为 样本 量 较 少 的 情况 下 ,数据 提 供 的 测量 信息 有 限 ， 使 复杂 程度 较 高 的 
SRM 的 MCMC 抽样 更 为 困难 . 
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表 6 模拟 研究 中 两 


个 ASM 和 SRM 的 问题 解决 能 力 参 数 估计 的 一 致 性 . 


1P-ASM 与 SRM 


2P-ASM 与 SRM 


样本 量 ”序列 长 度 


均 CBias 均 CRMSE CCor 均 CBias 


均 CRMSE CCor 


短 
100 

长 

短 
200 

长 
500 is 

长 


JÈ: 1P-ASM= 单 参数 行动 序列 模型 , 2P-ASM= P 
= 所 有 被 试 的 一 致 性 偏差 的 均值 ， 均 CRMSE = 所 有 被 试 的 一 致 性 误差 的 均值 ，CCor = SRM fii 


-0.009 0.126 0.991 -0.009 
0.015 0.200 0.986 0.015 
-0.004 0.126 0.991 -0.004 
0.008 0.208 0.986 0.008 
-0.002 0.126 0.990 -0.002 
0.003 0.211 0.986 0.003 


ASM 估计 值 之 间 的 相关 系数 . 


6 总 结 与 讨论 


与 传统 作答 精度 数据 相 上 


上 ， 诸 如 行动 序列 等 过 程 数 据 能 提供 


0.129 
0.098 
0.098 
0.077 
0.060 
0.042 


0.989 
0.995 
0.994 
0.997 
0.998 
0.999 


同时 ， 行 动 序列 数据 的 非 标准 


特征 (关键 行动 /操作 ) 提 取 的 传统 心理 计量 模型 迁移 应 用 和 随机 过 程 建 模 。 


叶 斯 网 络 与 NRM 相 结 合 , 提出 了 SRM。 与 NRM 类 似 ，SRM 采用 多 分 类 


IR, Han 等 人 (2021) 将 动态 贝 


logistic 建 模 ,进而 为 任务 
问题 解决 任务 中 行动 序列 有 


每 一 个 可 能 存在 的 行动 序列 都 赋予 不 同 的 参数 ， 
FE 误 之 分 ， 而 非 是 没有 数量 顺序 的 等 价 关 系 , 本 文 基于 二 分 


个 模型 复杂 性 相对 较 低 的 行动 序列 模型 一 一 
动 序列 数据 分 析 ，1P-ASM 和 2P-ASM 分 别 将 更 为 简单 的 单 参数 IRT 模型 


至 行动 序列 数据 分 析 。 实 证 研究 结果 发 现 (1) 两 个 ASM 和 SRM If iR SUED 


化 格式 ( 即 不 同 被 试 的 数据 长 度 不 同 ) 也 给 传统 心理 
带 来 了 困难 。 近 些 年 ， 随 着 研究 者 们 的 推进 ， 针 对 行动 序列 的 分 析 方法 或 模型 逐渐 丰富 ， 主 要 包括 基于 
针对 已 有 方法 或 多 或 少 的 局 


5 参数 行动 序列 模型 , SRM= 序列 作答 模型 ; 均 CBias 
计 值 与 


< 


EFIRI 


有 关 被 试 如 何 解决 问题 的 更 丰富 信息 。 


型 的 直接 应 用 


导致 模型 复杂 


性 较 高 。 鉴于 


1P-ASM 和 2P-ASM。 不 同 与 SRM 将 NRM 迁移 应 月 


I 和 两 参数 IRT 模型 迁 


能 力 估计 值 


【有 接近 于 1 


相关 系数 ， 表 明 它 们 测量 的 是 同一 潜在 特质 ; Q) 两 个 ASM 的 计算 耗 时 明显 低 于 SRM 


的 模型 复杂 性 低 于 SRM 的 ; 
ft b: 反之 ， 当 被 试 已 经 处 于 


分 度 参 数 进行 固定 不 同 ，2P-ASM 可 以 提供 


助 于 确定 相对 比较 重要 的 问题 
务 本 身 。 模 拟 研究 结果 发 现 (1) 即 便 不 是 数据 生成 模型 ， 两 个 ASM (DPE D 


(G) 当 被 试 已 经 处 于 正确 问题 解决 路 径 ， 则 其 更 易于 保持 在 正确 问题 解 划 
错误 问题 解决 路 径 ， 则 其 更 易于 继续 错 下 去 ; (4) 与 1 P-ASM 和 SRM 将 区 
在 当前 所 处 问题 状态 下 呈现 正确 行动 序列 的 
状态 (比如 实证 研究 中 的 问题 状态 C 和 D， 以 便 数据 分 析 者 更 好 地 了 解 任 


较 高 的 参数 估计 返 真性 ; 


区 分 度 参 数 ， 


类 建 模 提 出 了 两 
Ee 
wn 


的 


的 ， 表 明 ASM 


路 


有 


Q) 
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两 个 ASM Bit & 


Im 


耗 时 低 于 SRM， 尤 其 是 在 小 样本 量 条 件 下 的 相对 优势 更 为 明显 ; (3) 两 个 ASM 的 问题 


解决 能 力 估计 值 与 SRM 的 均 具 有 很 高 的 一 致 性 ， 且 2P-ASM 与 SRM 的 一 致 性 相对 更 高 ，(4) 被 试 解决 
问题 时 最 终 呈 现 的 问题 状态 转移 序列 的 长 短 是 影响 两 个 ASM 以 及 SRM 参数 估计 返 真性 的 主要 原因 之 
一 : 序列 越 长 ， 数 据 所 含 信息 越 多 ， 对 问题 解决 能 力 的 估计 精度 更 高 。 综 上 所 述 ， 
提出 的 两 个 ASM 能 够 实现 对 行动 序列 数据 的 有 效 分 析 ， 在 大 幅 减 少 计算 耗 时 的 同时 ， 还 能 够 提供 与 


SRM 几乎 一 致 的 被 试问 题解 决 能 力 估计 值 。 同 时 ， 综 合 模拟 研究 与 实说 


本 文 基于 二 分 类 建 模 


研究 的 结果 , 我 们 认为 2P-ASM 


H 1P-ASM 的 综合 表现 更 优 : 但 当 样本 量 较 小 (如 100 人 ) 或 任务 简单 (解决 问题 所 需 的 操作 较 少 ) 时 ， 则 


E 荐 使 用 更 简约 的 1P-ASM. 


当然 ， 作 为 二 分 类 模型 ，ASM 与 SRM 相 比 仍 有 一 定 的 至 


数据 前 需要 将 行动 序列 进行 二 分 编码 ， 将 所 有 错误 行动 序列 视 为 “等 价 "， 进 而 不 可 
的 差异 化 信息 。 另 外 ， 由 于 ASM 是 对 二 分 编码 后 的 行动 序列 数据 进行 建 模 的 ， 导 致 


误 行 动 序列 所 提供 
我 们 无 法 通过 给 定 模型 参数 使 其 生成 行动 序列 数据 。 


尽管 本 文 提出 两 个 可 有 效 分 析 行 动 序列 数据 的 模型 , 但 仍 有 一 些 不 足 值得 在 今后 的 研究 中 做 


E 论 局 限 。 比 如 ， 使 


1 ASM 分 析 行 动 序列 


避免 地 损失 了 不 同 错 


SE 


尝试 。 比 如 ， 首 先 ， 与 SRM 一 样 ，ASM 也 假设 被 试 的 问题 解决 能 力 是 单 维 的 ; 然而 ， 在 一 些 问 题解 决 


任务 中 ， 有 可 能 需要 被 试 使 用 多 个 不 同 维度 的 问题 解决 能 
列 模型 (如 ， 韩 雨 婷 ,2021)。 其 次 , 在 过 程 数据 ， 


o 后 续 研究 也 可 尝试 进一步 提出 多 维 行 动 序 
， 不 仅 记录 了 被 试 在 问题 解决 各 阶段 所 处 的 问题 状态 ( 即 


行动 序列 )， 还 记录 了 被 试 在 问题 解决 各 阶段 上 的 时 间 戳 信息 ， 利 用 时 间 戳 信息 可 以 计算 出 被 试 呈现 各 


行动 序列 所 花费 的 时 间 ， 即 行动 时 间 (action times) (Fu et al., 2022). 


大 量 关 于 题目 作答 时 间 (item response times) 数 据 分 析 的 以 及 将 


F (e.g., van der Linden, 2006; 2007)。 后 续 研 究 也 可 尝试 将 行动 


目前 ， 在 题目 层面 数据 分 析 中 ， 已 有 
其 与 题目 作答 精度 数据 进行 联合 分 析 的 而 
时 间 数 据 与 行动 序列 数据 相 结 合 ，i 


步 


空气 过 程 数据 中 所 包含 的 丰富 信息 (如 , Fu etal., 2022)。 再 有 ， 被 试 在 解决 问题 过 程 中 必须 从 下 一 个 阶段 


的 转移 可 选项 中 选择 一 个 才能 将 任务 继续 下 去 ; 当 被 试 不 知 如 何 选择 时 , 是 有 可 


的 。 后 续 研 究 也 可 以 尝试 迁移 应 用 包含 猜测 参数 的 三 参数 IRT 模型 来 处 理 行 动 请 
猜测 问题 。 最 后 ， 由 于 篇 幅 、 时 间 和 精力 所 限 ， 模 拟 研 究 中 所 


能 通过 猜测 来 进行 选择 


列 数据 中 可 能 存在 的 


操纵 的 变量 数量 或 水 平 数量 有 限 ， 未 能 充 


分 挖掘 ASM 在 不 同 理想 测验 条 件 下 的 表现 。 后 续 和 


完 也 可 尝试 通过 操纵 其 


[包含 更 多 数量 问题 状态 ]) 来 进一步 探究 ASM 的 心理 


计量 学 性 能 。 


他 变量 (如 ， 任 务 的 复杂 性 
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Binary Modeling of Action Sequences in Problem-solving Tasks: One- and 


Two-parameter Action Sequence Model 


Yanbin Fu! Qipeng Chen! Peida Zhan! 
(School of Psychology, Zhejiang Normal University, Jinhua, China) 
CKey Laboratory of Intelligent Education Technology and Application of Zhejiang Province, Jinhua, China) 


Abstract 

Process data refers to the human-computer or human-human interaction data recorded in computerized 
learning and assessment systems that reflect respondents’ problem-solving processes. Among the process data, 
action sequences are the most typical data because they reflect how respondents solve the problem step by step. 
However, the non-standardized format of action sequences (i.e., different data lengths for different participants) 
also poses difficulties for the direct application of traditional psychometric models. Han et al. (2021) proposed 
the SRM by combining dynamic Bayesian networks with the nominal response model (NRM) to address the 
shortcomings of existing methods. Similar to the NRM, the SRM uses multinomial logistic modeling, which in 
turn assigns different parameters to each possible action sequence in the task, leading to high model complexity. 
Given that action sequences in problem-solving tasks have correct and incorrect outcomes rather than 
equivalence relations without quantitative order, this paper proposes two action sequence models based on binary 
logistic modeling with relatively low model complexity: the one- and two-parameter action sequence models 
(1P and 2P-ASM). Unlike the SRM, which applies the NRM migration to action sequence analysis, the IP-ASM 
and 2P-ASM migrate the simpler one- and two-parameter IRT models to action sequence analysis, respectively. 

An illustrated example was provided to compare the performance of SRM and two ASMs with a real-world 
interactive assessment item, "Tickets," in the PISA 2012. The results mainly showed that: (1) the latent ability 
estimates of two ASMs and the SRM had high correlation; (2) ASMs took less computing time than that of SRM; 
(3) participants who are solving the problem correctly tend to continue to present the correct action sequences, 
and vice versa; and (4) compared with the fixed discrimination parameter of the SRM, the free estimated 
discrimination parameter of the 2P-ASM helped us to better understand the task. 

A simulation study was further designed to explore the psychometric performance of the proposed model 
in different test scenarios. Two factors were manipulated: sample size (including 100, 200, and 500) and average 
problem state transition sequence length (including short and long). The SRM was used to generate the state 
transition sequences in the simulation study. The problem-solving task structure from the empirical study was 
used. The results showed that: (1) two ASMs could provide accurate parameter estimates even if they were not 


the data-generation model; (2) the computation time of both ASMs was lower than that of SRM, especially under 


*Corresponding Author: Peida Zhan, E-mail: pdzhan@gmail.com; zhan@zjnu.edu.cn 
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the condition of a small sample size; (3) the problem-solving ability estimates of both ASMs were in high 
agreement with the problem-solving ability estimate ofthe SRM, and the agreement between 2P-ASM and SRM 
is relatively higher; and (4) the longer the problem state transition sequence, the better the recovery of problem- 
solving ability parameter for both ASMs and SRM. 

Overall, the two ASMs proposed in this paper based on binary logistic modeling can achieve effective 
analysis of action sequences and provide almost identical estimates of participants' problem-solving ability to 
SRM while significantly reducing the computational time. Meanwhile, combining the results of simulation and 
empirical studies, we believe that the 2P-ASM has better overall performance than the 1P-ASM; however, the 
more parsimonious 1P-ASM is recommended when the sample size is small (e.g., 100 participants) or the task 


is simple (fewer operations are required to solve the problem). 


Key words: process data, action sequence, problem state transition, action sequence model, item response theory 
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附录 : 


1 PISA 2012 Tickets 购 票 任务 介绍 


Al 是 PISA 2012 购 票 任务 的 截图 ， 该 任务 包含 三 个 子 问 题 : 
问题 1(CP038Q02): 购买 一 张 全 价 的 、 能 够 乘 车 两 次 的 郊区 火车 票 , 满足 任务 要 求 的 被 试 获得 1 分 ， 
未 作答 或 者 未 达成 任务 要 求 的 被 试 得 0 分 。 图 A2 是 完成 该 任务 正确 的 行动 路 径 。 
问题 2(CP038Q01): 假设 你 是 一 位 学 生 ， 可 以 买 学 生 票 ， 你 计划 今天 在 市 内 乘坐 4 次 地 铁 ， 使 用 
售票 机 找 出 最 便宜 的 车 票 。 购 买 了 1 张 "城市 地 铁 / 优 惠 票 /多 次 票 /4 次 ”并 且 看 过 “城市 地 铁 /优惠 票 /全 
票 ” 界 面 来 比较 价格 的 被 试 可 以 得 到 满分 2 分 , 购买 了 1 张 "城市 地 铁 /优惠 票 /多 次 票 /4 次 ”或 者 “城市 
地 铁 / 优 惠 票 /全 日 票 ”， 但 是 没有 同时 比较 过 这 两 套 方案 价格 的 被 试 得 1 分 ， 未 作答 或 者 未 达到 题目 要 
求 的 被 试 得 0 分 。 
问题 3 (CP038Q03): ”假设 你 是 一 名 学 生 ， 可 以 买 学 生 票 ， 你 想 购 买 一 张 可 搭乘 两 次 城市 地 铁 的 
票 。 如 果 被 试 按 要 求购 买 “城市 地 铁 / 优 惠 票 /多 次 票 /2 次 "车票 ， 系 统 会 自动 提示 被 试 所 选 车 票 种 类 无 
法 购买 ， 需 要 更 改 购 买方 案 。 尝 试 过 “城市 地 铁 /优惠 票 /多 次 票 /2 次 ”然后 买 了 以 下 任 一 种 车 票 的 被 试 可 
以 得 1 分 :“ 城 市 地 铁 /全 价 票 /多 次 票 /1 次 ”， 或 “城市 地 铁 /全 价 票 /多 次 票 /2 次 ”。 未 作答 或 者 未 达到 任 
务 要 求 的 被 试 得 0 分 。 


TICKETS 


Atrain station has an automated ticketing machine. 

You use the touch screen on the right to buy a 

ticket, You must make three choices. Select fare type 

» Choose the train network you want (subway 
or country). 


» Choose the type of fare (full or concession). 


» Choose a dally ticket or a ticket for a 

specified number of trips. Daily tickets give 

you unlimited travel on the day of purchase. 

If you buy a ticket with a specified number 

of trips, you can use the trips on different 

days. 
The BUY button appears when you have made 
these three choices. There is a CANCEL button that 
can be used at any time BEFORE you press the 
BUY button. 


Select dally ticket or 
multiple individual trips 


ZEDTRAINS < > A ZEDTRAINS 


A1 PISA 2012 Tickets 购 票 任务 截图 
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TICKETS 


Atrain station has an automated ticketing machine. 
You use the touch screen on the right to buy a 
ticket, You must make three choices. Select train network Select fare type 


» Choose the train network you want (subway 
or country). 

o Choose the type of fare (full or concession). 

» Choose a dally ticket or a ticket fora 
specified number of trips. Dally tickets give 
you unlimited travel on the day of purchase. 
If you buy a ticket with a specified number 


\ PE 


of trips, you can use the trips on different 

days. 
The BUY button appears when you have made 
these three choices. There is a CANCEL button that 


can be used at any time BEFORE you press the S 4 
BUY button, d s 
N - 
; AN. ZEDTRAINS 一 < 


Select dally ticket or 
multiple individual trips 


ZEDTRAINS 一 ET ZEDTRAINS = > Y ZEDTRAINS 


图 A2 CP038Q02 购 票 任务 问题 解决 流程 
ik: 红色 箭头 表示 了 完美 解决 该 问题 的 步骤 。 


2 PISA 2012 购 票 任 务 数据 中 的 异常 行动 序列 


K Al 展示 了 本 文 实证 研究 数据 当中 被 删除 的 一 条 异常 行动 序列 。 表 格 中 Cnt 代表 国家 编号 ， 
SchoolID 代表 学 校 编号 ，StdID 代表 学 生 编写。 异常 的 行动 序列 已 经 用 红色 字体 标 出 。 符 合 任务 状态 转 
移 规则 的 行动 序列 为 : Country_trains — Full Fare 一 Daily 一 Cancel 一 Country trains 一 Full Fare 一 
Individual Trip 2 一 Buy。 系 统 在 记录 该 被 试 操 作 的 过 程 中 出 错 ， 使 得 被 试 的 行动 序列 以 倒序 被 重复 记 
录 了 一 次 。 限 于 实证 研究 中 数据 量 庞大 ， 难 以 对 数据 集中 的 所 有 行动 序列 一 一 纠正 ， 因 此 不 符合 任务 预 
设 规则 的 行动 序列 均 被 删除 掉 了 。 


A Al 异常 行动 序列 示例 


Cnt SchoolID StdID Event Time Event Number Action 
ARE 0000068 01770 START ITEM 843.1000 1.00 NULL 
ARE 0000068 01770 ACER EVENT 885.2000 2.00 country trains 
ARE 0000068 01770 ACER EVENT 892.3000 3.00 full fare 
ARE 0000068 01770 ACER EVENT 894.1000 4.00 daily 
ARE 0000068 01770 ACER EVENT 904.5000 5.00 Cancel 
ARE 0000068 01770 ACER EVENT 914.7000 6.00 country trains 
ARE 0000068 01770 ACER EVENT 915.0000 7.00 full fare 
ARE 0000068 01770 ACER EVENT 915.9000 8.00 individual 
ARE 0000068 01770 ACER EVENT 917.5000 9.00 trip 2 
ARE 0000068 01770 ACER EVENT 923.0000 10.00 Buy 
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ARE 
ARE 
ARE 
ARE 
ARE 
ARE 
ARE 
ARE 
ARE 
ARE 
ARE 


3 后 验 预 测 值 (ppp) 计 算 逻 辑 


对 于 本 研究 ， 模 型 拟 合 通 过 后 验 预 测 值 (ppp) tfr 
表 2 呈现 了 See nias 2P-ASM 计算 该 统计 量 


0000068 
0000068 
0000068 
0000068 
0000068 
0000068 
0000068 
0000068 
0000068 
0000068 
0000068 


01770 
01770 
01770 
01770 
01770 
01770 
01770 
01770 
01770 
01770 
01770 


END ITEM 

END ITEM 
ACER EVEN 
ACER EVEN 
ACER EVEN 
ACER EVEN 
ACER EVE 
ACER EVEN 
ACER EVEN 
ACER EVEN 
ACER EVEN 


Z 
HAF 88844 4 


928.5000 
928.5000 
923.0000 
917.5000 
915.9000 
915.0000 
914.7000 
904.5000 
894.1000 
892.3000 
885.2000 


aly) 


Zu 


11.00 
12.00 
13.00 
14.00 
15.00 
16.00 
17.00 
18.00 
19.00 
20.00 
21.00 


E 复 抽样 值 ， 因 此 ， 


NULL 
NULL 
Buy 
trip 2 
individual 
full fare 
country_trains 
Cancel 
daily 
full fare 


country trains 


平 佑 。 选 择 观测 值 的 和 (0()) 作 为 统计 检验 量 ， 
值得 注意 的 是 ， 
要 比较 4,000 次 MCMC 抽样 中 每 个 样本 的 真 值 和 习 


行动 序列 的 观测 值 实际 上 是 
行动 序列 的 真 


值 和 抽样 值 将 会 被 重新 编码 为 0 或 1， 即 1 表示 正确 的 状态 转移 ，0 表示 错误 的 状态 转移 ，ppp 值 即 为 
真 值 的 0 统计 量 大 于 抽样 值 0 统计 量 的 比例 。 如 果 模 型 与 数据 拟 合 ，ppp 值 将 接近 于 0.5. 
表 A2 ppp 值 计 算 逻 辑 
模型 统计 量 
N Pr 一 
观测 值 O(S; Ai. 6' e 2, Sn Sé 
SRM 
N Pn- 
抽样 值 Brema gie P riet 
N Pn- 
观测 值 O(Y; p, 6' De SCH T" 
1P-ASM 
N Pr 一 
抽样 值 O(Yre'; p'o) = Y roS 
À > Sp?Sp 
NP- 
观测 值 O(Y; B, y. 6! )- 一 SCH p pti 
2P-ASM 
N Pn- 
抽样 值 ocr’; py ar) =) Y o: 


DE: 4 表示 状态 转移 倾向 参数 ， 表示 状态 作答 容易 度 , y RI 


' 表示 第 "次 


Led Sp > Onp+i = 1 或 者 KÉ 


>Sp+1 


n=1 p= 


WS TE 


= 1 表示 正确 


区 分 度 ，6 表示 问题 解决 能 力 ， 
的 状态 转移 ， Sp > Snp+1 = 


0 或 者 
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Ynsyosp = 0 表示 错误 的 状态 转移 。 


4 实证 研究 中 参数 估计 轨迹 图 和 后 验 分 布 
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A3 IP-ASM 截 距 参数 的 轨迹 图 
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A4 IP-ASM 截 距 参 数 的 后 验 分 布 图 
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图 A5 2P-ASM 和 截 距 参 数 的 轨迹 图 


A6 2P-ASM 截 距 参数 的 后 验 分 布 图 
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Lei 


A8 SRM 状态 转移 倾向 参数 的 后 验 分 布 图 


XA A3 模拟 研究 中 状态 转移 倾向 参数 的 真 值 


状态 转移 倾向 参数 ” 短 序列 ”长 序列 


Asa 


0.496 0.410 
-0.469 -0.459 
1.468 1.503 
-0.375 -1.096 
-1.091  -0.456 
0.381 -0.932 
-0.146 0.240 
-0.273 0.758 
-1.001 -1.481 
0.472 0.585 
0.451 0.809 
0.094 0.115 
-0.993 -1.023 
0.362 0.390 
0.595 0.678 
0.184 0.090 
-0.217 -0.227 
0.185 0.149 
-1.001 0.965 
1.013 -1.004 
-0.481 0.522 
0.432 -0.599 
-0.171 0.223 
0.171 -0.134 
0.028 -0.114 
-0.159 0.431 
0.071 -0.412 


TE: 正确 状态 转移 的 参数 已 加 粗 


5 鲁 棱 性 分 析 结 果 


K AA 模拟 研究 中 1P-ASM 截 距 参 数 在 不 同 信息 水 平 下 的 估计 结果 
有 信 息 先 验 无 信 息 先 验 
TUE Se ET 
均值 标准 差 95%HPD 均值 标准 差 95%HPD 


Bs 0.941 0.050 (0.844, 1.038) 0.947 0.049 (0.852, 1.042) 


oR WN n 
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Ba 1.613 0.068 (1.484, 1.751) 1.623 0.069 (1.492, 1.758) 
Bs -1.595 0.063 (-1.720, -1.470) -1.603 0.062 (-1.725, -1.480) 
Bc -2.383 0.117 (2.618,-2461) -2.421 0.118 (-2.650, -2.195) 
Bp -1.344 0.140 (-1.614, -1.061) -1.377 0.143 (-1.660, -1.094) 
Br 0.069 0.168 (-0.256, 0.396) 0.070 0.170 (-0.264, 0.404) 
Br 1.801 0.087 (1.632, 1.978) 1.820 0.086 (1.654, 1.982) 
Bo 0.560 0.115 (0.332, 0.782) 0.573 0.122 (0.328, 0.809) 
Bu -0.214 0.087 (-0.385, -0.040) -0.212 0.087 (-0.385, -0.038) 
D 0.839 0.154 (0.547, 1.139) 0.867 0.154 (0.567, 1.166) 


注 : 有 信息 水 平 下 ， 截 距 参 数 的 先 验 分 布 为 标准 正 态 分 布 N(0,1)。 无 信息 水 平 下 ， 截 距 参 数 的 先 验 分 布 
服从 均值 为 0， 标 准 差 为 10 的 正 态 分 布 N(0,10)。 所 有 结果 均 为 “500- 长 序列 ”条件 下 重复 一 次 得 到 的 估 
计 值 。 


X AS 模拟 研究 中 2P-ASM 截 距 参数 在 不 同 信息 水 平 下 的 估计 结果 
有 信息 先 验 无 信息 先 验 

和 均值 标准 差 95%HPD 均值 标准 差 95%HPD 

Bs 1.061 0.064 (0.937, 1.187) 1.069 0.068 (0.937, 1.210) 
Ba 1.679 0.084 (1.517, 1.844) 1.694 0.086 (1.529, 1.864) 
Ba -1.910 0.109 (-2.125,-1.699) -1.933 0.113 (-2.167, -1.723) 
Be -2.581 0.310 (-3.220, -2.004) -2.876 0.375 (-3.665, -2.197) 
Bp -1.026 0.305 (-1.651, -0.463) -0.987 0.531 (-1.900, -0.005) 
Br -0.135 0.291 (-0.719, 0.413) -0.169 0.331 (-0.863, 0.454) 
Br 2.212 0.168 (1.904, 2.554) 2.288 0.174 (1.967, 2.643) 
Be 1.247 0.247 (0.780, 1.750) 1.374 0.268 (0.896, 1.936) 
Bu -0.139 0.104 (-0.341, 0.064) -0.130 0.108 (-0.338, 0.078) 
Bi 1.238 0.250 (0.772, 1.745) 1.356 0.275 (0.860, 1.933) 


K A6 模拟 研究 中 2P-ASM 斜率 参数 在 不 同 信 息 水 平 下 的 估计 结果 


有 信息 先 验 无 信息 先 验 

m 均值 标准 差 95%HPD 均值 标准 差 95%HPD 

Ys 2.165 0.145 (1.902, 2.463) — 2.185 0.149 (1.908, 2.498) 
YA 2.268 0.208 (1.885, 2.703) 2.308 0.213 (1.909, 2.753) 
Yg 2.075 0.186 (1.736, 2.459) 2.121 0.193 (1.760, 2.510) 
Yc 1.499 0.315 (0.921,2.162) 1.772 0.374 (1.102, 2.560) 
Yp 0.913 0.298 (0.382, 1.537) 0.858 0.535 (0.000, 1.764) 
Ve 1.722 0.494 (0.823,2.764) 1.810 0.562 (0.829, 3.024) 
Yr 2.125 0.246 (1.655, 2.624) 2.238 0.254 (1.770, 2.758) 
Yc 2.567 0.390 (1.866, 3.379) | 2.764 0.431 (1.978, 3.695) 
Yu 2.663 0.282 (2.151,3.254) 2.699 0.287 (2.190, 3.310) 
yi 2.188 0.418 (1.419, 3.045) 2.383 0.466 (1.559, 3.387) 
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预 印 本 : 单 /两 参数 行动 序列 模型 


注 : 有 信息 水 平 下 斜率 参数 的 先 验 分 布 服从 均值 为 0， 标 准 差 为 1 的 对 数 正 态 分 布 log (y) -N(O, 1). 
无 信息 水 平 下 ， 和 斜率 参数 的 先 验 分 布 服从 均值 为 0， 标准 差 为 10 的 对 数 正 态 分 布 log (y)~N(0,10)。 
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Ability estimates of 1P-ASM under non-informative prior 
M 

Ability estimates of 2P-ASM under non-informative prior 
o 
Li 


1 1 1 1 1 1 1 1 
-1 0 1 2 -1 0 1 2 


Ability estimates of 1P-ASM under informative prior Ability estimates of 2P-ASM under informative prior 


图 A9 模拟 研究 中 IP-ASM 和 2P-ASM 在 不 同 信息 水 平 下 的 能 力 估 计 值 对 比 
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